2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

Update: 2025-09-26

Description

本期的 15 篇论文如下：

[00:20 ] 🔬 SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines（SciReasoner：跨学科夯实科学推理基石）

[01:00 ] 🧠 MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources（MMR1：基于方差感知采样与开放资源的多模态推理增强）

[01:41 ] 📈 VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models（VCRL：面向大语言模型的方差驱动课程强化学习）

[02:26 ] 🌳 Tree Search for LLM Agent Reinforcement Learning（基于树搜索的大语言模型智能体强化学习）

[03:06 ] 🖼 Seedream 4.0: Toward Next-generation Multimodal Image Generation（Seedream 4.0：面向下一代多模态图像生成）

[03:40 ] 🎯 Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets（Hunyuan3D-Omni：统一可控3D资产生成框架）

[04:29 ] 🤖 AutoIntent: AutoML for Text Classification（AutoIntent：面向文本分类任务的自动化机器学习框架）

[05:10 ] ⚖ TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them（TrustJudge：LLM-as-a-Judge的评分不一致性及缓解之道）

[05:43 ] 🎢 CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning（CE-GPPO：通过梯度保留裁剪策略优化控制强化学习中的熵）

[06:30 ] 🖼 Does FLUX Already Know How to Perform Physically Plausible Image Composition?（FLUX已掌握物理可信图像合成？）

[07:31 ] ✂ CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling（CHARM：基于控制点的3D动漫发型自回归建模）

[08:26 ] 🧠 Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution（Recon-Act：基于网络侦察、工具生成与任务执行的自我演化多智能体浏览器操作系统）

[09:12 ] 🎮 V-GameGym: Visual Game Generation for Code Large Language Models（V-GameGym：面向代码大模型的视觉游戏生成基准）

[09:49 ] 🗣 Interactive Recommendation Agent with Active User Commands（支持主动用户指令的交互式推荐智能体）

[10:22 ] 🔍 BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback（BESPOKE：基于诊断反馈的搜索增强大模型个性化评测基准）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

2025.09.25 | 视频模型零样本全能；隐式思维链省token提效

2025-09-2507:59

2025.09.24 | 阿语OCR刷新指标；无标注RL涨分

2025-09-2411:36

2025.09.23 | 少78条示范让AI飙73.5%；免掩膜视频插主体超Pika

2025-09-2311:18

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025-09-2209:35

【周末特辑】9月第4周最火AI论文 | OmniWorld打造4D数据工厂；WebWeaver让AI边搜边写

2025-09-2013:21

2025.09.19 | 跨平台GUI模型刷榜；FlowRL分布匹配提推理

2025-09-1911:38

2025.09.18 | FP8压缩+翻译微调低成本炼阿语大模型；2B-8B小模型洗数据硬刚GPT-4o

2025-09-1810:41

2025.09.17 | WebWeaver框架提升可信长文报告；Agentic预训练扩展智能体系统

2025-09-1708:01

2025.09.16 | OmniWorld建4D数据底座；UI-S1半在线驯界面代理

2025-09-1609:00

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025-09-1510:06

【周末特辑】9月第3周最火AI论文 | 群智RL提速大模型；小VLA零预训练控机械

2025-09-1414:35

2025.09.12 | HuMo多模态控人视频；SimpleVLA-RL强化升效

2025-09-1210:34

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

2025-09-1105:31

2025.09.10 | 强化学习并行思维；视觉搜索推理扩展

2025-09-1006:51

00:00

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

#box-pro-ellipsis-175941903476860{-webkit-line-clamp:2;}2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态